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摘 要 : 


[目的 /意义 ] 玉米 茎 秆 宽度 是 影响 玉米 抗 倒伏 能 力 的 重要 指标 。 玉 米 茎 秆 宽度 测量 存在 人 工 采 集 过 程 繁 


琐 、 设 备 自动 采集 识别 精度 误差 较 大 等 问题 ， 人 研究 一 种 玉米 茎 秆 宽度 原 位 检测 与 高 精度 识别 方法 具有 重要 应 用 价 


值 。[ 方 法 ] 
强 ， 使 用 YOLOv8 对 玉米 茎 秆 进行 识别 ， 


RKE (Efficient IoU Loss, EIoU) 的 方法 ， 进 一 步 提高 3 


采用 ZED2i 双 目 相 机 并 将 其 固定 在 田间 获取 实时 的 玉米 茎 秆 左 目 和 右 目 图 片 ， 对 原始 图 片 进行 数据 增 
再 通过 多 次 增加 注意 力 机 制 (Coordinate Attention, CA) 模块 ， 和 替换 损 
E 米 茎 秆 的 识别 精度 ， 然 后 通过 对 玉米 茎 秆 的 三 维 重建 ， 


获取 识别 框 边界 点 在 世界 坐标 系 下 的 三 维 数据 ， 通 过 距离 公式 计算 出 茎 秆 宽度 。 最 后 对 改进 后 的 YOLOv8 模 型 与 
YOLOv8 原 模型 、YOLOv7、YOLOv5、Faster RENN, 、SSD 进行 对 比 ， 验 证 模型 的 识别 准确 性 和 识别 精度 。[ 结 果 和 
讨论 ] 改进 后 的 YOLOv8 模 型 的 查 准 率 P、 查 全 率 RR、 平 均 精确 率 mAP,,、 平 均 精确 率 mAP,;.。 分 别 达 到 了 96.8%、 
94.1%、96.6%、77.0%， 玉 米 茎 秆 宽度 原 位 检测 宽度 计算 的 线性 回归 决定 系数 让， 均 方 根 误差 RMSE 和 平均 绝对 误 


差 MAE 分 别 为 0.373、0.265 和 0.244 cm， 可 满足 实际 生产 对 玉米 茎 秆 宽度 测量 精度 的 要 求 。[ 结 论 ] 本 研究 提出 的 
基于 改进 YOLOv8 模 型 的 玉米 茎 秆 宽度 原 位 识别 方法 可 以 实现 对 玉米 茎 秆 的 原 位 准确 识别 ,很 好 地 解决 了 目前 人 
工 测量 耗 时 费力 和 机 器 视觉 识别 精度 较 差 的 问题 ， 为 实际 生产 应 用 提供 了 理论 依据 。 
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1 引 言 


田间 作物 表 型 的 快速 准确 检测 是 监测 作物 生长 
状况 的 重要 保障 。 玉 米 荃 秆 宽度 是 重要 的 表 型 参 
数 ， 直 接 影响 玉米 的 抗 倒伏 能 力 “。 拨 节 期 是 玉米 
茎 村 变化 的 重要 时 期 ， 在 拔节 期 对 玉米 茎 秆 宽度 的 
监测 尤为 重要 “”。 近 年 来 ， 深 度 学 习 逐 渐 成 为 作 
物 表 型 分 析 的 重要 研究 手段 ， 能 提高 农作物 生产 的 
管理 效率 。Xiang 等 采用 MaskR-CNN 检测 田 间 
高 梁 茎 秆 的 轮廓 ， 计 算 值 与 真实 值 的 相关 系数 为 
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0.97. Zhou 等 “采用 了 最 大 类 间 方 差 (Otsu) 
图 像 阅 值 分 割 得 到 了 玉米 主 茎 ,平均 绝对 误差 在 
92.5 mm， 均 方 根 误差 为 25.2 mm。 陈 燕 等 ”构建 
了 基于 深度 学 习 架 构 融 合 ResNet 和 Unet 的 语义 分 
制 Res-Unet 网络 模型 ， 分 割 出 的 玉米 截面 精度 相 较 
于 原 模型 有 明显 提高 。 徐 胜 勇 等 ”使 用 Mask R- 
CNN 分 割 黄瓜 近 红 外 图 像 中 的 叶片 和 茎 秆 ， 在 黄 
瓜 三 个 生长 时 期 的 实际 值 与 预测 值 的 平均 绝对 误差 
均 小 于 9%。 张 凯 琪 ”使 用 D435i 深 度 相 机 获取 盆 
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栽 玉米 的 图 像 ， 通 过 RGB 图 像 配合 深度 图 像 来 进 
行 玉米 茎 秆 的 分 割 ， 通 过 深度 信息 进行 玉米 茎 粗 的 
计算 ,实验 结果 的 平均 误差 为 1.36 mm. fex UU 
提出 了 基于 三 维 点 云 的 田间 香蕉 吸 芽 表 型 参数 信息 
提取 方法 ， 并 针对 吸 芽 茎 秆 宽度 小 ， 使 用 曲面 拟 合 
算法 提高 茎 秆 宽度 测量 精度 和 准确 性 ， 均 方 根 误差 
为 4.44 mm. 

YOLOv8 作为 YOLO 系列 近期 提出 的 版 本 ， 不 
仅 继承 了 旧版 本 识别 精度 良好 ， 识 别 速 度 较 快 的 优 
点 ， 还 提升 了 模型 本 身 的 性 能 ， 可 以 被 更 加 广泛 地 
应 用 到 实际 生产 中 。 囊 红 春 和 陶 大 "提出 了 一 种 
改进 YOLOv8 算 法 的 商业 渔船 监控 中 鱼 类 的 监测 与 
识别 方法 。YOLOv8 的 检测 效果 对 比 其 他 主流 的 目 
标 检 测 模型 效果 有 明显 提升 。YOLOv8 通过 提高 检 
测算 法 的 精度 ， 使 得 检测 到 的 目标 更 准确 中。 前 
人 的 目标 检测 都 是 在 简单 环境 下 完成 的 ， 在 大 田间 
复杂 环境 下 需要 对 模型 进行 改进 ， 完 成 复杂 环境 下 
的 识别 任务 。 

之 前 获取 数据 的 方式 多 为 RGB-D 相机 ， 也 就 
是 深度 相机 ， 通 过 结构 光 或 ToF (Time of Fly) 的 
物理 方式 获取 物体 的 次 度 信 息 。 但 其 有 明显 的 局 限 
PE: 测量 范围 窗 、 噪 声 大 、 视 野 小 、 易 受 日 光 干 
扰 ， 因 此 通常 在 室内 使 用 ， 很 难 应 用 到 室外 。 
ZED2i 双 目 相 机 是 一 款 典 型 的 室外 测 距 相机 ， 由 于 
其 良好 的 抗 强 光 能 力 、 视 野 范围 宽阔 、 拍 摄 图 片 清 
晰 度 高 等 优点 ， 可 以 满足 大 田 实 际 生产 需求 。 前 人 
的 研究 中 对 于 植物 表 型 数据 计算 的 精度 不 高 ， 识 别 
准确 度 较 低 ， 计 算 误差 不 符合 实际 生产 需求 。 本 研 
究 基 于 YOLOv8 原始 模型 提出 了 一 种 改进 的 玉米 葵 
秆 宽度 原 位 识别 检测 模型 ， 可 提升 原始 模型 的 识别 
准确 率 和 识别 精度 。 通 过 引入 注意 力 机 制 ， 增 强 算 
法 的 特征 提取 能 力 ， 替 换 损 失 函 数 优化 模型 ， 保 证 
了 玉米 茎 秆 宽度 识别 的 精度 和 时 效 性 ， 为 玉米 的 茎 
秆 宽度 检测 提供 一 种 原 位 检测 方法 。 


2 材料 与 方法 


2.1 样本 采集 及 预 处 理 


2.1.1 样本 采集 
试验 数据 集 于 2023 年 6 月 8 日 至 7 月 25 日 于 甘 
肃 省 武威 市 中 国 农业 大 学 石 羊 河 实验 站 玉米 表 型 实 


验 田 进行 采集 ， 实 验 田 长 150 m, 9550 m。 玉 米 品 
种 为 “ 先 玉 1225”， 玉 米 图 像 采 集 使 用 ZED2i 双 日 
相机 ， 利 用 支架 将 摄像 头 平行 于 田间 玉米 种 植 行 固 
定 放置 ， 将 摄像 头 放置 在 距离 地 面 50 cm 的 位 置 ， 
与 玉米 距离 40 cm， 主 要 拍摄 位 置 为 玉米 葵 秆 。 

使 用 相机 在 田间 对 玉米 葵 秆 进行 拍摄 ， 随 机 选 
取 了 10 株 玉米 ， 使 用 标识 物 进行 标记 ; 在 相机 拍 
摄 具 有 标识 物 的 玉米 时 ， 使 用 人 工 测 量 被 标识 玉米 
葵 秆 的 方式 获取 玉米 荃 秆 的 真实 值 。 在 手动 测量 玉 
米 茎 秆 时 ， 测 量 角度 尽量 与 拍摄 角度 保持 一 致 ， 摄 
像 机 安放 示意 图 如 图 1 所 示 。 
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Al 田间 双 目 相机 玉米 茎 秆 图 像 采集 方案 
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Fig. 1 Binocular camera field maize stalk image 


acquisition scheme 


fii Hj NVIDIA Jetson TX2 NX 开 发 板 设置 程序 
定时 拍照 采集 ， 获 取 玉 米 的 侧 视 图 ， 共 收集 畏 天 、 
HR, REX SEAS [RICCA DU P ESL ERE 1535 幅 ， 
图 像 分 辨 率 像素 为 2560X1920， 双 目 相 机 采集 图 像 
如 图 2 所 示 。 


(a) 左 目 图 片 
图 2 双 目 相机 玉米 茎 秆 数据 集 图 片 样本 


(b) 右 目 图 片 


Fig. 2 Binocular camera maize stalk dataset image samplet 
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2.1.2. 样本 预 处 理 

为 了 让 模型 能 观察 到 目标 区 域 的 更 多 特征 ， 提 
高 模型 的 泛 化 能 力 ， 对 数据 集中 的 图 像 进行 了 数据 
增强 。 采 用 图 像 饱 和 度 、 亮 度 、 对 比 度 、 锐 度 和 水 
平 翻转 五 种 处 理 方式 对 图 像 进 行 处 理 ， 将 数据 集 扩 
充 至 3500 幅 图 像 。 增 强 后 的 数据 图 像样 式 如 图 3 
所 示 。 


= 


(a) 原 始 图 像 


(c) 调 整 亮 


(d) 对 比 图 (e) 调 整 锐 度 (全 水 平 翻转 
图 3 数据 增强 后 的 玉米 茎 秆 数据 集 图 像 


Fig. 3 Maize stalk dataset picture after data enhanced 


将 增强 数据 集 按照 8 : 1 : 1 的 比例 划分 为 训练 
集 、 验 证 集 和 测试 集 。 使 用 开源 工具 LabelImg 对 数 
据 集 进行 标注 ， 玉 米 种 植 行为 东西 向 ， 双 目 相 机 放 
置 的 位 置 为 玉米 种 植 行 南 侧 ， 水 平 于 地 面 ， 后 排 存 
在 叶片 遮挡 严重 且 土 壤 干 扰 较 严重 等 问题 ,为 了 排 
除 一 些 干扰 ， 选 择 标 注 玉米 拍摄 行 清晰 可 见 完整 无 
遮挡 的 玉米 茎 秆 。 使 用 和 矩形 框 选 出 玉米 茎 秆 ， 同 时 
在 LabelImg 软件 中 设置 标签 为 stem， 图 像 标注 结果 
如 图 4 所 示 。 


图 4 BRA AFA Labellmg thik 25 RK 


Fig.4 Labellmg labeling results of maize stalks 


通过 LabelImg 标 注 后 的 图 像 保 存 为 TXT 文件 。 
将 训练 集 、 验 证 集 和 测试 集 的 文件 名 分 别 写 和 人 TXT 
文件 中 ,将 3 个 TXT 文件 存储 在 一 个 文件 夹 中 ， 建 
立 玉米 茎 秆 宽度 检测 图 像 数 据 集 。 


2.2 识别 模型 构建 


2.2.1 YOLOv8 算 法 模型 简介 

YOLOv8 属 于 单 阶段 目标 检测 网 络 "，YO- 
LOv8 将 YOLOv5 中 Backbone 里 的 C3 模块 更 换 成 了 
梯度 流 更 丰富 的 C2f 模 块 ， 缩 减 了 骨干 网 络 中 最 大 
stage 的 blocks 数 ， 进 一 步 减少 参数 量 和 计算 量 ， 实 
现 轻 量 化 。 将 YOLOv5 中 PAN-FPN 上 采样 阶段 中 
的 卷 积 结构 删除 ， 提 高 YOLOv8 的 运算 速度 。YO- 
LOv8 采 用 的 是 Anchor-Free 检 测 方式 ， 即 直接 预测 
目标 的 中 心 点 和 宽 高 比例 ， 而 不 是 预测 Anchor 框 
的 位 置 和 大 小 。 这 种 方式 可 以 减少 Anchor 框 的 数 
量 ， 提 高 检测 速度 和 精度 。 

2.2.2 注意 力 机 制 

最 近 几 年 注意 力 机 制 广泛 使 用 在 深度 学 习 
的 各 个 领域 ， 当 前 构建 轻 量 级 神经 网 络 多 采用 挤 压 
注意 力 (Squeeze-and-Excitation, SE) ' 模块 ， 但 
SE 模 块 忽略 了 图 像 的 位 置信 息 ， 导 致 图 像 识 别 会 
出 现 偏差 。 卷 积 注 意 力 (Convolutional block atten- 
tion module, CBAM) 模块 是 一 种 简单 而 有 效 的 前 
馈 卷 积 神经 网 络 注 意 模块 。 但 CBAM 仪 能 提取 局 部 
的 位 置 注意 力 信 息 ， 缺 乏 长 距离 关系 提取 的 能 
渠道 注意 力 (Coordinate Attention, CA) ?" 机制 是 
一 种 新 的 高 效 注意 力 机 制 ， 不 仅 考 虑 了 通道 信息 ， 
还 考虑 了 方向 相关 的 位 置信 息 。CA 注意 力 机 制 可 
以 在 轻 量 级 网 络 的 基础 上 给 下 游 任务 带 来 巨大 的 增 
益 ， 可 以 使 注意 块 捕捉 单方 向 上 的 长 距离 关系 的 同 
时 保留 男 一 个 方向 上 的 空间 信息 ， 这 样 位 置信 息 就 
可 以 保存 在 生成 的 注意 力图 中 ,来 关注 感 兴趣 的 区 
域 ， 帮 助 网 络 更 好 、 更 准确 地 定位 目标 。 

本 人 研究 网 络 设 计 中 ， 将 CA 模块 与 原始 Back- 
bone 中 的 C2f 模 块 融 合 ， 利 用 CA 注意 力 模块 替换 
原始 C2f 模块 中 的 Bottleneck， 重 新 设计 后 的 
C2fCA 网 络 模块 如 图 5 所 示 。 

2.2.3 ”损失 函数 

在 使 用 YOLOYv8 进行 目标 检测 时 ， 目 标 边 界 杠 
的 位 置 对 后 续 的 宽度 计算 具有 重要 的 作用 ， 为 了 缩 
小 计算 预测 值 与 真实 值 的 差距 ， 改 进 损失 函数 就 是 
一 个 重要 的 指标 。 

YOLOv8 中 box-IoU 默认 使 用 的 函数 为 CIloU I 
(Complete IoU Loss), CIoU 就 是 在 DIoU "(Dis- 
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Conv 


Bottleneck |- 


Bottleneck | .7 


Conv 
+ 


Conv 
C2f C2fCA 
(a) 原始 C2f 模 块 图 (b)C2fCA 模块 图 


图 5 C2fCA 模块 设计 图 
Fig. 5 C2fCA module design diagram 


tance IoU Loss) 的 基础 上 加 入 了 宽 高 比 ， 计 算 方法 
如 公式 (1) 所 示 。 


2 gt 
Cree 19th = gy (1) 
C 


其 中 ，IoU (Intersection over Union) 2j 26 Ff 
比 ， 是 测量 在 特定 数据 集中 检测 相应 物体 准确 度 的 
一 个 标准 ， 它 可 以 反映 预测 检测 框 与 真实 检测 框 的 
检测 效果 ; (5，b* ) 代 表 了 预测 框 与 真实 框 的 中 心 
点 ; Pp 表示 两 个 中 心 点 之 间 的 欧 氏 距离 ， 像 素 ; cK 
示 的 是 能 够 同时 包含 预测 框 与 真实 框 的 最 小 外 接 矩 
形 的 对 角 线 长 度 ， 像 素 ; a 是 权重 系数 ; vy 用 来 衡量 
预测 框 和 真实 框 之 间 的 宽 高 比 的 相似 性 ， 如 公 
式 (2) 和 (3) 所 示 。 


y 
E 2 

oT = Tol y (2) 
a aw aw 

y x arctan 7 arctan " (3) 


HB. wt. n] ap ARR ASHE SURE. B 
R; wy 分 别 表示 预测 框 的 宽 和 高 ， 像 素 。 

最 终 CIoU Loss 按 照 公 式 (4) 计算 。 

HP, Loy A CloU 损失 。CIoU 仅 能 反映 预测 
边界 框 与 真实 边界 框 长 宽 比 的 差异 ， 并 不 是 长 宽 分 
别 与 其 置信 度 的 真实 差异 ， 预 测 边 界 框 与 真实 边界 
框 长 宽 比 描述 的 是 相对 值 ， 可 能 会 导致 CIoU 以 不 
合理 的 方式 优化 相似 性 ， 并 未 考虑 难 易 样 本 的 平衡 
问题 。 针 对 这 一 问题 ， 有 学 者 提出 了 EIoU (Effi- 


(b, b* 
ipee e (4) 
C 


cient IoU Loss), EIoU "" 是 在 CIoU 的 惩罚 项 基础 

上 将 预测 框 和 真实 框 的 纵横 比 的 影响 因子 拆 开 ,分 

别 计算 预测 框 和 真实 框 的 长 和 宽 ， 来 解决 CIoU 存 
在 的 问题 ， 其 按照 公式 (5) 计算 。 

2 b, "n 2 w, w” 2 h, hg 

L,,-1-1ou EU ) , pr ) e - ) 


c Ci 


其 中 ，Zaw 为 EIoU 损 失 ; c, 和 6 是 预测 框 和 真 
实 框 最 小 外 接 和 矩形 的 宽度 和 高 度 ， 像 素 。 

EIoU 将 纵横 比 的 损失 项 拆 分 成 预测 的 宽 高 分 
别 与 最 小 外 接 框 宽 高 的 差 值 ， 加 速 了 预测 框 的 收 
敛 、 提 高 了 预测 框 的 回归 精度 。 

2.2.4 改进 后 的 网 络 

本 研究 以 YOLOv8 为 基础 模型 加 以 改进 ， 以 适 
应 田间 玉米 在 复杂 环境 背景 下 的 茎 村 原 位 识别 检 
测 ， 基 于 以 上 叙述 及 试验 论证 ， 针 对 YOLOv8 的 改 
进 如 下 : 将 Backbone 的 C2f 模 块 中 的 Bottleneck 前 
增加 CA 注意 力 ， 可 以 使 网 络 更 精准 地 定位 目标 ， 
并 提高 网 络 的 效率 。 然 后 更 换 损失 函数 ， 进 一 步 提 
高 收敛 速度 从 而 优化 网 络 提高 网 络 的 识别 精度 。 改 
进 后 的 网 络 结构 如 图 6 所 示 。 


2.3 玉米 茎 秆 宽度 计算 


2.3.1 双 目 相机 标定 

双 目 立体 视觉 是 用 两 个 相机 在 不 同 角度 同时 拍 
摄 物 体 ， 通 过 两 幅 图 像 视觉 差 恢复 物体 的 三 维 几 何 
形状 。 双 目 相 机 成 像 原理 如 图 7 所 示 。 

对 双 目 相机 进行 标定 ， 双 目 相 机 标定 采用 棋盘 
格 标定 ， 通 过 双 目 相机 对 棋盘 格 不 同方 向 的 拍摄 获 
取 图 像 。 共 采集 24 张 不 同 角 度 的 图 片 ， 使 用 
OpenCV-Python 自动 双 目 标定 可 获取 双 目 相机 的 内 
参 ， 外 参 和 畸变 指数 。 通 过 标定 结果 对 原始 图 像 进 
行 矫 正 ， 矫 正 后 的 两 张 图 像 位 于 同一 平面 ， 可 为 后 
续 三 维 重 建 提供 更 加 精确 的 数据 。 
2.3.2 ”三维 重建 计算 玉米 茎 秆 宽度 

使 用 1.2 节 改进 的 YOLOv8 在 识别 出 玉米 葵 秆 
后 ,继续 识别 出 图 像 中 识别 框 左上 角 点 和 右 下 角 点 
的 坐标 信息 ， 通 过 双 目 视觉 对 识别 出 的 玉米 茎 秆 进 
行 三 维 重建 ， 对 左右 两 目 图 像 识别 框 坐标 信息 、 边 
界 框 宽 度 和 高 度 以 及 置信 度 的 比较 匹配 ， 完 成 双 目 
图 像 中 的 识别 框 匹配 。 玉 米 茎 秆 宽度 估算 检测 算法 
流程 图 如 图 8 所 示 。 
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图 6 改进 后 的 YOLOv8 网络 结构 图 


Fig. 6 Structure of the improved YOLOvS8 network 
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图 7 双 目 相机 成 像 原 理 


Fig.7 Binocular camera imaging principle 


由 图 8 所 示 ， 首 先 判 断 两 张 图 像 中 识别 框 的 检 
测 数 量 是 否 相等 ， 若 不 相等 ， 则 重新 输入 双 目 图 
像 ; 将 相等 ， 则 继续 判断 左右 目 图 像 的 坐标 信息 、 
边界 框 的 宽度 和 高 度 ， 判 断 差 值 是 否 小 于 给 定 阔 
值 a (Threshold a,， 工 )。 若 大 于 给 定 工 ， 则 重新 输 
入 图 像 ; 若 小 于 给 定 工 ， 则 通过 判断 图 像 的 识别 框 
的 置信 和 度 是 否 小 于 给 定 阔 值 b (Threshold b, T,). 
若 大 于 给 定 T,， 则 重新 输入 图 像 ; 若 小 于 给 定 T,， 
则 表明 该 识别 框 为 左右 图 像 中 识别 的 同一 株 玉米 。 


满足 以 上 条 件 则 完成 双 目 图 像 中 的 对 应 点 匹配 。 在 
双 目 图 像 三 维 重建 后 ， 获 得 识别 框 左上 角 与 右上 角 
在 世界 坐标 系 下 的 三 维 坐标 (As A, A,) 和 (B, 
B,，B.) ， 两 点 的 距离 就 是 玉米 蕉 秆 的 宽度 灰 ， 计 
算 方 法 如 公式 (6) 所 示 。 

w= J(4.- 8.) «(4,- 8) +(4.- &.) (6) 

Jb, GL, A, A) ERIE E fie HERE A 
标 系 下 的 坐标 ; (BB, B) 是 识别 框 右上 角 在 世 
界 坐标 系 下 的 坐标 。 


3 试验 与 结果 分 析 


3.1 试验 环境 及 参数 设置 


该 试验 在 Windows10 系统 上 运行 ， 配置 为 搭载 
Intel Core 15-10400F CPU， 主 频 2.9 GHz, S2 
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比 ， 其 中 查 准 率 与 召回 率 按 照 公 式 (8) 和 “(9) 

=m 计算 。 

L—— 输入 双 目 图 
= - P= (8) 
i gw TP + FN 

unum ri 其 中 ，TP (True Positives) 表示 实际 玉米 茎 秆 
og "— 被 判别 为 玉米 茎 秆 的 样本 数量 , 个 ; FP (False 
检测 结果 — 3 — -— Positives) I S bs y dE EO AA AI I] AJ EKA 
结束 秆 的 样本 数量 ， 个 ; FN (False Negatives) 表示 实 


图 8 玉米 茎 秆 宽度 估 测 算法 流程 图 


Fig.8 Flow chart of maize stalk width estimation algorithm 


4.5 GHz, 32 G 机 带 RAM, Nvidia Geforce RTX 
3070 显卡 ， 统 一 计算 设备 架构 (CUDA) 版 本 为 
11.3, GPU 加速 CUDNN 版 本 为 8.2.0， 编 程 语言 》 
Python3.8， 深 度 学 习 框 架 为 Pytorch1.10.0。 

初始 学 习 率 设 为 0.01， 动量 初始 值 0.937， 权 
重 衰减 系数 为 0.0005， 图 像 输入 像素 尺寸 为 2560 X 
1920, batch-size 为 35， 训 练 轮 次 设 为 500 个 ep- 
ochs, IoU B] (Ei 0.5. 


3.2 试验 评价 指标 


本 人 研究 主要 采用 查 准 率 (Precision, P), AE 
率 (Recall, R), P-R 曲线 在 二 维 坐 标 中 转 起 来 的 
面积 大 小 ， 被 称 作 平均 准确 率 (Average Precision, 
AP)， 多 对 象 的 平均 精确 率 为 mAP， 因 为 研究 对 象 
只 有 一 个 ， 所 以 文中 均 用 mAP 作 为 比较 指标 ， 如 
公式 (7) 所 示 。 

mAP = | par (7) 

其 中 ， 忆 是 查 准 率 ， 吸 是 对 召回 率 进行 积分 。 
平均 精度 在 IoU 为 0.5 时 (mean Average Precision, 
mAP,), ， 以 及 平均 精度 在 IoU 从 0.5 到 0.95， 步 长 
0.05 (mean Average Precision，mAP,, ,ss) 作为 评 
价 标准 ， 将 提出 的 改进 模型 与 其 他 模型 进行 了 对 


Das OK EK ZS FF RA Sl) ON AE FE OK ZA AF AY PE AS i 
个 ; TN (True Negatives) KIR Sc bs 2g dE KOKA 
被 判别 为 非 玉 米 茎 秆 的 样本 数量 ,个 。 


3.3 性 能 结果 分 析 


为 了 检验 对 YOLOv8 算 法 改进 的 效果 ， 通 过 进 
行 消融 实验 来 评估 这 些 改进 对 整体 性 能 的 影响 。 首 
先 对 注意 力 机 制 进 行 评 佑 ， 通 过 对 比 多 项 常见 注意 
力 机 制 模 块 ， 如 SE 注意 力 模块 、CBAM 注意 力 模 
块 以 及 本 研究 的 C2fCA TER TIBOR, 按照 上 述 的 改 
进 方法 以 及 训练 策略 ， 在 训练 完成 后 ， 在 同一 个 测 
试 集 上 进行 推理 验证 ， 实 际 验证 结果 表明 ， 在 本 次 
试验 中 C2fCA 注 意 力 模块 的 识别 效果 最 优 ， 验 证 集 
上 的 识别 准确 率 如 图 9 所 示 。 
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图 9 基于 YOLOv8 的 不 同 注意 力 识别 准确 率 对 比 图 
Fig.9 Comparison chart of different attention recognition accu- 


racy rates based on YOLOv8 


在 C2fCA 的 模型 基础 上 ， 更 换 YOLOvg8 的 损失 
函数 ，YOLOv8 中 box-IoU 默认 使 用 的 函数 为 CI- 
oU, tn pha H CloU 替换 为 EIoU， 分 别 对 比 
T EloU 与 CIoU 的 各 项 评估 指标 ， 在 准确 率 和 召回 
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率 上 二 者 并 无 明显 区 别 ， 但 在 预测 框 与 真实 框 之 间 
的 误差 回归 中 ，EIoU 的 收敛 速度 和 精度 要 比 CIoU 
表现 优秀 ， 二 者 对 比 图 如 图 10 所 示 。 


0.14 } 
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CloU 
0.02 
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训练 范 次 /次 


图 10 基于 YOLOv8 的 EIoU 与 CIoU 回归 Loss 对 比 图 
Fig. 10. Comparison chart of EIoU and CIoU regression loss 
based on YOLOv8 

不 同 改进 的 消融 实验 的 结果 相 较 于 原始 YO- 
LOv8 各 项 参数 指标 如 表 1 所 示 。 

由 表 1 可 知 ， 经 过 多 项 消融 实验 后 ， 改 进 后 的 
YOLOv8 算 法 对 比 两 项 改进 均 不 添加 的 原始 YO- 
LOv8 算 法 ， 忆 提升 了 2.1%， 尺 提升 了 1.6%，mAP,， 
提升 了 2.2%，mAP,, us 提升 了 14.4%。 实 验 结果 表 
明 ， 增 加 CA 注意 力 机 制 ， 更 换 损失 函数 可 以 提高 
整个 检测 网 络 的 识别 精度 ， 同 时 使 用 CA 和 了 EIoU 
后 ,模型 的 画面 每 秒 传输 帧 数 (Frame Per Second, 
FPS) 相 比 单独 使 用 CA 和 EIoU 更 低 ， 是 因为 CA 
或 EIoU 的 引入 会 增加 模型 的 复杂 性 ， 导 致 处 理 每 
一 帧 的 时 间 增 加 ， 在 牺牲 一 定 FPS 的 情况 下 ， 提 高 
模型 的 精度 。FPS 大 于 等 于 24 即 可 满足 实时 检测 的 
需求 ， 本 研究 提出 的 改进 YOLOv8 算 法 在 提升 玉米 
茎 杆 的 识别 率 的 同时 ， 又 保证 了 检测 速度 。 

基于 YOLOv8 的 玉米 茎 秆 宽度 测量 结果 如 图 11 
所 示 。 训 练 结 果 可 以 在 边界 框 中 显示 茎 秆 宽度 数 
de. 其中， 通过 在 田间 定位 标记 植株 并 标记 图 片 的 
方式 来 选取 了 10 株 玉米 ， 通 过 手动 测量 和 算法 计 


算 来 分 析 葵 秆 宽度 预测 与 实际 测量 的 误差 。 表 2 比 
较 了 茎 村 宽度 预测 与 实际 测量 数据 分 析 的 决定 系数 
(R-Square，R") ， 均 方 根 误差 (Root Mean Square 
Error，RSME) 和 绝对 平均 误差 (Mean Absolute 
Error, MAE) 的 分 析 结 果 。 由 表 2 可 知 ， 通 过 YO- 
LOv8 估计 得 到 的 玉米 葵 秆 宽度 的 值 尼 为 0.373， 
RMSE 为 0.265 cm，MAE 为 0.244 cm, RAV fg Œ 
模型 对 数据 的 拟 合 程度 ， 尽 管 该 模型 的 R 为 0.373， 
但 是 模型 依旧 拥有 良好 的 预测 结果 ， 该 结果 可 以 应 
用 在 实际 生产 ,该 误差 在 实际 大 田原 位 检测 茎 秆 宽 
度 中 是 可 接受 的 误差 范围 。 


Fig. 11 Measurement results of maize stalk width based on 
YOLOv8 

玉米 茎 秆 宽度 原 位 检测 由 于 玉米 在 实际 种 植 过 
程 中 并 不 都 是 直立 生长 ， 在 图 像 获 取 过 程 中 会 存在 
FPA ZB Rt, ZAR SS FETE TRE; ATAA 
宽度 进行 测量 时 ， 由 于 原 位 测量 存在 难度 ， 在 测量 
时 也 会 存在 误差 ， 这 些 都 属于 数据 的 不 确定 性 。 在 
识别 过 程 中 由 于 玉米 前 后 茎 秆 的 重茬 会 被 误 判 为 一 
个 茎 秆 ,会 使 识别 效果 出 现 误 差 。 


3.4 不 同 模型 的 对 比试 验 分 析 
为 进一步 验证 本 研究 提出 的 YOLOv8 改 进 算法 


表 1 YOLOv8 的 不 同 改进 消融 实验 结果 
Table 1 Results of different improved ablation tests of YOLOv8 


模型 P/% R/% mAP, ;/% mAP, 5.095/% FPS 

CA EIoU 一 一 

x x 94.7 92.5 94.4 62.6 69.0 

YOLOv8 Y x 96.2 93.5 96.1 70.5 57.0 
x Y 95.3 92.5 95.9 68.8 58.0 

Y Y 96.8 94.1 96.6 77 56.0 
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表 2 基于 YOLOYv8 的 玉米 茎 秆 宽度 测量 结果 分 析 


Table 2 Analysis of maize stalk width measurement results 


based on YOLOv8 
玉米 植株 编号 真 值 /cm 检测 值 /cm 偏差 /cm 

1 2.34 245 0.09 
2 2.82 2.36 0.46 
3 2.47 2.30 0.17 
4 2,32 2.29 0.03 
3 2.56 2.28 0.28 
6 2,15 2.32 0.17 
7 2.23 2.30 20.07 
8 1.93 2.25 -0.32 
9 2.54 2.33 0.21 
10 2.02 2.29 -0.27 
R 0.373 

RMSE/cm 0.265 

MAE/cm 0.244 


模型 的 性 能 ， 对 比 其 他 当前 主流 的 卷 积 神经 网 络 模 
型 ,试验 采用 YOLOv7、YOLOv5、 更 快 的 区 域 卷 
积 神经 网 络 (Faster Region Convolutional Neural 
Networks, Faster R-CNN) FI% W £ A K M 
(Single Shot MultiBox Detector, SSD) 在 上 述 同 一 
参数 设置 条 件 下 ， 在 自 建 玉米 荃 秆 识别 数据 集 的 训 
练 集 和 测试 集 上 进行 训练 和 测试 ， 最 终 得 到 的 性 能 
测试 结果 如 表 3 所 示 。 
表 3 玉米 葵 秆 检测 的 不 同 模型 对 比 结果 
Table 3 Comparison results of different models for maize 


stalk detection 


算法 PI% R/% mAP,/% — mAP,, 495/% 
YOLOv8 96.8 94.1 96.6 77.0 
YOLOv7 95.5 92.8 95.6 65.4 
YOLOv5 95.0 92.0 95.4 612 

Faster R-CNN 65.7 53.8 50.4 39.4 

SSD 76.2 70.3 75.7 56.9 


由 表 3 可 知 ， 本 研究 提出 的 YOLOv8 改进 模型 
在 玉米 茎 秆 宽度 检测 验证 数据 集 上 对 比 其 他 几 种 主 
流 卷 积 神经 网 络 模型 ， 识 别 准确 率 和 召回 率 可 达到 
96.8% 和 94.1%，mAP,. 达 到 了 96.6%，mAP,,. osi% 
到 了 77.0%， 对 比 YOLOv7 分 别提 升 了 1.3%、 
1.3%, 1.09€, 11.6%, 5f EE YOLOvS 分 别提 升 了 
1.8%, 2.196, 1.2%, 15.8%, Xf Lt Faster R-CNN 4} 
3 $e Ft Y 31.1%, 40.3%, 46.2%, 37.6%, Xj LU 
SSD 4} 3] FE Ft f 20.696, 23.896, 20.9%, 20.1%. 
在 算法 性 能 上 有 着 更 好 的 表现 效果 ， 说 明 改进 后 的 


YOLOv8 模 型 可 以 更 好 地 定位 到 目标 区 域 ， 排 除 背 
景 复 杂 的 干扰 ， 也 能 够 提升 识别 的 准确 率 和 识别 速 
度 ， 可 以 充分 利用 图 像 信息 。 


4 结 论 


本 研究 建立 了 玉米 茎 秆 宽度 原 位 检测 数据 集 ， 
在 YOLOv8 模 型 的 基础 上 提出 了 一 种 融合 CA 注意 
力 机 制 ,通过 引导 网 络 加 强 对 目标 区 域 的 检测 ， 减 
少 农业 生产 中 复杂 背景 的 影响 ， 降 低 背 景 干扰 对 识 
别 效果 的 影响 ,替换 YOLOv8 交 又 炉 函数 中 的 CI- 
oU 为 EIoU， 加 强 预 测 框 与 真实 框 之 间 的 收敛 速度 ， 
提高 玉米 茎 秆 识别 检测 精度 。 利 用 改进 的 YOLOv8 
算法 进行 训练 后 对 玉米 茎 秆 进行 识别 ， 最 终 得 出 识 
别 准确 率 、 召 回 率 、mAP,; 和 mAP,;.,s; 分 别 为 
96.8%、94.1%、96.6% 和 77.0%， 相 较 于 原 YO- 
LOv8，P 提 升 了 2.1%，R 提 升 了 1.6%，mAP,, 提 升 
了 2.2%，mAP,, us 提升 了 14.4%。 通 过 双 目 图 像 深 
度 信息 估计 得 到 的 玉米 葵 秆 宽度 的 值 尼 为 0.343 ， 
RMSE 为 0.333 cm, MAE 为 0.270 cm， 此 计算 精度 
能 够 充分 满足 农业 生产 的 要 求 ， 可 以 达到 玉米 茎 秆 
原 位 检测 的 要 求 。 本 研究 提出 的 基于 改进 的 YO- 
LOv8 的 玉米 茎 秆 宽度 原 位 识别 方法 可 以 满足 实际 
生产 需要 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
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Abstract: 

[Objective] The width of maize stalks is an important indicator affecting the lodging resistance of maize. The measurement of maize 
stalk width has many problems, such as cumbersome manual collection process and large errors in the accuracy of automatic equip- 
ment collection and recognition, and it is of great application value to study a method for in-situ detection and high-precision identifi- 
cation of maize stalk width. 

[Methods] The ZED2i binocular camera was used and fixed in the field to obtain real-time pictures from the left and right sides of 
maize stalks together. The picture acquisition system was based on the NVIDIA Jetson TX2 NX development board, which could 
achieve timed shooting of both sides view of the maize by setting up the program. A total of maize original images were collected and 
a dataset was established. In order to observe more features in the target area from the image and provide assistance to improve model 
training generalization ability, the original images were processed by five processing methods: image saturation, brightness, contrast, 
sharpness and horizontal flipping, and the dataset was expanded to 3500 images. YOLOv8 was used as the original model for identify- 
ing maize stalks from a complex background. The coordinate attention (CA) attention mechanism can bring huge gains to downstream 
tasks on the basis of lightweight networks, so that the attention block can capture long-distance relationships in one direction while re- 
taining spatial information in the other direction, so that the position information can be saved in the generated attention map to focus 
on the area of interest and help the network locate the target better and more accurately. By adding the CA module multiple times, the 
CA module was fused with the C2f module in the original Backbone, and the Bottleneck in the original C2f module was replaced by 
the CA module, and the C2fCA network module was redesigned. Replacing the loss function Efficient IoU Loss(EIoU) splits the loss 
term of the aspect ratio into the difference between the predicted width and height and the width and height of the minimum outer 
frame, which accelerated the convergence of the prediction box, improved the regression accuracy of the prediction box, and further 
improved the recognition accuracy of maize stalks. The binocular camera was then calibrated so that the left and right cameras were 
on the same three-dimensional plane. Then the three-dimensional reconstruction of maize stalks, and the matching of left and right 
cameras recognition frames was realized through the algorithm, first determine whether the detection number of recognition frames in 
the two images was equal, if not, re-enter the binocular image. If they were equal, continue to judge the coordinate information of the 
left and right images, the width and height of the bounding box, and determine whether the difference was less than the given T,. If 
greater than the given T, the image was re-imported; If it was less than the given T,, the confidence level of the recognition frame of 
the image was determined whether it was less than the given T,. If greater than the given T,, the image is re-imported; If it is less than 
the given T,, it indicates that the recognition frame is the same maize identified in the left and right images. If the above conditions 
were met, the corresponding point matching in the binocular image was completed. After the three-dimensional reconstruction of the 
binocular image, the three-dimensional coordinates (A,, A,, A,) and (B,, B,, B) in the upper left and upper right corners of the recogni- 
tion box under the world coordinate system were obtained, and the distance between the two points was the width of the maize stalk. 
Finally, a comparative analysis was conducted among the improved YOLOv8 model, the original YOLOv8 model, faster region con- 
volutional neural networks (Faster R-CNN), and single shot multiBox detector (SSD)to verify the recognition accuracy and recogni- 
tion accuracy of the model. 

[Results and Discussions] The precision rate (P), recall rate (R), average accuracy mAP,,. average accuracy MAP, s95 of the im- 
proved YOLOv8 model reached 96.8%, 94.196, 96.6% and 77.0%. Compared with YOLOYv7, increased by 1.3%, 1.3%, 1.0% and 
11.6%, compared with YOLOVvS, increased by 1.8%, 2.1%, 1.2% and 15.8%, compared with Faster R-CNN, increased by 31.1%, 
40.395. 46.296. and 37.6%, and compared with SSD, increased by 20.6%, 23.896, 20.9% and 20.1%, respectively. Respectively, 
and the linear regression coefficient of determination R^, root mean square error RMSE and mean absolute error MAE were 0.373, 
0.265 cm and 0.244 cm, respectively. The method proposed in the research can meet the requirements of actual production for the mea- 
surement accuracy of maize stalk width. 

[Conclusions] In this study, the in-situ recognition method of maize stalk width based on the improved YOLOv8 model can realize 
the accurate in-situ identification of maize stalks, which solves the problems of time-consuming and laborious manual measurement 


and poor machine vision recognition accuracy, and provides a theoretical basis for practical production applications. 
Key words: YOLOv8; attention mechanism; binocular vision; maize stalk width detection; three-dimensional reconstruction 
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